Карань Анна
студентка факультета биоинженерии и бионформатики

Нуклеотидный blast

Задание 1

В этот задании нужно определить таксономию и функцию прочтенной мной нуклеотидной последовательности (из практ. 6)
Полученнная в 6 практикуме последовательность.
Так как это нуклеотидная последовательность, и искать "гомологов" нужно по нуклеотидным последовательностям, это а сделать это можно в BlastN, начнем с него, а не с MegaBlast, так как последовательность достаточно большая (838 нуклеотидов), и мы ничего не знаем про её принадлежность к какому-то таксону (а есть даже виды с очень высоким уровнем полиморфизма) и про функцию, и лучше не использовать метод, ищущий только самые похожие. Но и с MegaBlast сразу же запустим, чтобы сравнить
На основе первой выдачи и без каких-либо рассуждений можно сделать вывод о функции данной последовательности.

Рис.1. Выдача BlastN (Нажмите, чтобы увидеть приближенный вариант)

Если посмотреть на Рис.1., то становится очевидным, что изучаемая последовательность является геном 18s рибосомальной РНК какого-то организма. Все результаты при ограничении в 100 последовательностей - 18s рРНК.
Далее нужно определить таксон. Построим дерево выдачи blast 1000 видов, здесь легенда для этого дерева. Unknown, синий в легенде, - это как раз последовательность изучаемого организма. Как видно, наиболее близкими к нему являются кольчатые черви (ярко-зеленым отмечены на дереве). Однако, мы можем определить таксон и дальше. 18s рРНК - очень консервативная последовательность, как раз на её основе строится филогения для отдаленных организмов, между человеческой и дрожжевой, например, сходство 75% (статья про сходство 18s рРНК. Так что велика вероятность, что наша последовательность как раз относится к таксону с самым большим Score, а это Scoloplos acutissimus, идентичность 98%, покрытие - 99%. У следующих же нескольких организмов (Рис.1.) идентичность 96% при том же покрытии. Чтобы доказать принадлежность последовательность первому виду посмотрим на полиморфизм последовательностей внутри рода Scoloplos и внутри видов.

Рис.2. Выдача Blast для Scoloplos acutissimus внутри рода Scoloplos

Как видно на Рис.2. внутри рода разброс достаточно большой. Проверим для вида (Рис.3.)

Рис.3. Выдача Blast для Scoloplos armiger внутри вида

Для достаточно большого покрытия, идентичность больше 98%. Я показала этот вид, так как для Scoloplos acutissimus только 1 последовательность (род не очень изучен). И как раз для выранивания нашей последовательности покрытие 99%, а идентичность 98%. Т.е. если исследуемый организм принадлежит этому роду, то скорей всего виду Scoloplos acutissimus.
Для окончательного подтверждения, проверим уровень полиморфизма для видов и родов с покрытием 99% и больше и идентичностью больше 95% (речь же идет о 18s рРНК). Привожу здесь только результаты поиска, где было больше одной последовательности.
Вот скрины результатов - Orbinia swani, Leodamas (разные виды), Leitoscoloplos (разные виды).

Для Orbinia покрытие доходит до 92%, а идентичность до 94% внутри рода. Для Leodamas покрытие 100%, а идентичность 98%. Для Leitoscoloplos покрытие до 97%, а идентичность до 82%. Отсюда следует, что исследуемый организм может принадлежать как роду Scoloplos, так и Orbinia,Leitoscoloplos и другим для которых в банке оказалась одна последователньость рода. (трудно еще анализировать из-за малой изученности данных организмов, мало секвенировано последовательностей).
Как же тогда определить таксон?

Рис.4. Верх таблицы таксонов для выдачи blast

На Рис.4. видно, что все вышеперечисленные рода и виды (в общем, организмы с самым высоким score при анализе нашей последовательности) относятся к семейству Orbiniidae (Сколециды). Поэтому можно утверждать, что исследуемый организм входит по крайней мере в семейство Orbiniidae.

Рис.5. Пример представителя Orbiniidae - Scoloplos acutissimus из статьи

Задание 2

Здесь необходимо сравнить списки находок нуклеотидной последовательности 3-я разными алгоритмами blast.
Чтобы адекватно сравнивать алгоритмы, нужно так задать ограничения на результаты, чтобы не сравнивать выдачи, где все 99%, но и 60% не подходит, нужна золотая середина, а также, чтобы было не очень много находок (несколько десятков).
Для этого задания я взяла последовательность, используемую в прошлом задании. На Рис.6. показано, каким образом я задавала ограничения на находки.

Рис.6. Ограничения на принадлежность к каким-то таксонам результатов blast.

Остальные параметры blast:

Database: Others (nr etc.)
Optimize for: как раз 3 варианта, 3 алгоритма
Max target sequences: 1000
Expect threshold: 10
Word size: 11 (для blastn)
Max matches in a query range: 0
Match/Mismatch Scores: 2,-3
Gap Costs: Existence: 5 Extension:2
Filter; Low complexiy regions
Mask: Mask for lookup table only
Таблица 1. Сравнение работы 3-х алгоритмов blast: blastn, discontiguous blast, megablast
Число находокМаксимальный E-valueМинимальное Query coverПримеры находок, найденных этим алгоритмом, но не найденных каким-то другим
blastn99Phoronopsis harmeri mitochondrion, complete genome
Terebratalia transversa wnt1 (wnt1) mRNA, complete cds
Glottidia pyramidata mRNA for intermediate filament protein
Neoancistrocrania norfolki isolate D1471 18S ribosomal RNA gene
discontiguous blast953e-10052%
megablast953e-10035%

Рис.7. Организмы, найденные blastn, но не найденные остальным алгоритмами.

На Рис.7. у всех организмов очень низкое покрытие (1-2%) и очень высокий E-value, это их и отличает от остальных находок. Это демонстрирует, что алгоритм blastn с той же длиной слова, что discontiguous blast, однако, в отличие от него, blastn представляет даже достаточно далекие последовательности, т.е. все "гомологи". Т.е., в отличие от discontiguous blast и megablast, blastn не отсекает находки с низким Query covery и E-value.
А чем же отличаются между собой Discontiguous blast и megablast?
На первый взгляд вроде бы ничем, одинаковое число находок, одинаковые значения Query covery, однако, есть отличия. Во-первых, в Таблице 1 и Рис.8. видно различие в минимальном Query covery. В обоих случаях это один и тот же организм, только в выдаче Discontiguous blast в этом организме 2 находки, которые суммируются, а в Megablast только одна, максимальная. Это потому что второе выравнивание для megablast уже с слишком низким e-value/query cover, или вообще не обнаруживается, так как длина слова у megablast 28, в отличие от 11 у остальных, он подходит для поиска среди более близких организмов.

Задание 3

В этом задании нужно проверить наличие гомологов трех белков в геноме одного организма - X5 (Amoеboaphelidium protococarum)
Это вид из группы афелид из криптомицетов, близкой к микроспоридиям, паразитирует на водорослях.(Рис.8.)

Рис.8. Внешний вид Amoеboaphelidium protococarum.

Сборка генома X5
Вот белки, гомологи которых я буду искать в геноме.

RPB2_HUMAN - наибольшая субъединица ДНК-зависимой РНК-полимеразы II
SDHA_HUMAN - субъединица сукцинат дегидрогеназы, флавопротеин
UBB_HUMAN - убиквитин B

RPB2_HUMAN - субъединица фермента из группы РНК-полимераз - белков, осуществляющих транскрипцию. Эукариоты обладают несколькими типами полимераз, изучаемая субъединица относится ко II РНК-полимеразе, которая производит предшественников для мРНК, а также для большинства мяРНК и миРНК. Это наиболее хорошо изученный тип РНК-полимеразы. Ввиду того, что транскрипция должна происходить под строгим контролем, РНК-полимеразе II для связывания с промоторами требуется целый набор факторов транскрипции.
Последовательность RPB2
Находки blast RPB2 по геному Amoеboaphelidium protococarum
Blast выдает 2 результата с высоким, очень близким score (1336 и 1341) и E-value равному 0 - scaffold-463, scaffold-359. Идентичность 58 и 59%, positive 75%. У остальных выравниваний слишком низкая идентичность, и если посмотреть на них внимательно нельзя выделить отдельную область с высоким сходством, предполагая гомологичность доменов. Это позволяет предположить, что у Amoеboaphelidium protococarum в геноме есть гомолог субъединицы РНК-полиеразы II.
SDHA_HUMAN - субъединица белкового комплекса, расположенного во внутренней мембране митохондрий и мембранах многих прокариотических организмов. Одновременно участвует в цикле трикарбоновых кислот и дыхательной цепи переноса электронов.
Последовательность SDHA
Находки blast SDHA по геному Amoеboaphelidium protococarum
Blast выдает 2 результата с высоким, очень близким score (827, 822) и E-value равному 0 - scaffold-199 и scaffold-212. Идентичность 68%, positive 79%. Это позволяет предположить, что у Amoеboaphelidium protococarum в геноме есть гомолог субъединицы сукцинат дегидрогеназы. UBB_HUMAN - убиквитин B, из групы небольших (8.5 кДа) консервативных белков эукариот, участвующих в регуляции процессов внутриклеточной деградации других белков, а также их функций.
Последовательность UBB
Находки blast UBB по геному Amoеboaphelidium protococarum
И в геноме человека, например, есть множество белков, содержащих убиквитиновый домен, поэтому и blast выдает больше результатов, чем для прошлых белков. 1 находка в scaffold-105, 3 находки в scaffold-17 с идентичностью 95% и score 442, 420, 417, 416. Это почти однозначно говорит о наличии многих гомологов убиквитина в геноме Amoеboaphelidium protococarum.
Есть еще множество одинаковых выравниваний в разных скэффолдах, но с меньшим score, возможно, это говорит о гомологии доменов, но точнее сказать трудно.

Задание 4

Последовательность scaffold-17, длиной 2125590

С помощью написанных ниже команд я узнала длины всех скэффолдов и выбрала скэффолд длиной около 2 млн нуклеотидов, чтобы точно уместился ген.

infoseq <имя файла> -only -name -length
seqret <имя файла>:<имя последовательности> -out <имя выходного файла>

Так как Amoеboaphelidium protococarum единственный секвенированный из рода, то поиск blast по роду ничего не даст, поэтому в первый поиск ограничим его Cryptomonads (taxid:3027) и используем megablast, чтобы искать точное соответствие. Однако, в этом случае слишком мало находок для достоверности определения гена.
Поэтому необходимо расширить поиск, взяв более высокий таксон, например Opisthokonta (taxid:33154). Так как скэффод скорей всего будет больше гена, то слишком низкому query cover можно не удивляться. Так и оказалось, у всех находок query cover равен 0, так как длина ген примерно 1000 нуклеотидов.

Рис.9. Находки megablast, по scaffold-17.

Все результаты говорят о том, что в scaffold-17 есть ген актина.

Задание 5

В этом задании необходимо классифицировать геномы родственных вирусов по сходству последовательностей Я выбрала вирус, который был у меня в первом семестре, Bunyamwera virus.
-L Akabane virus
-L Bunyamwera virus
-L Cat Que Virus
-L La Crosse virus
-L Oropouche virus
-L Simbu virus
Все последовательности L-сегментов вместе
-S Akabane virus
-S Bunyamwera virus
-S Cat Que Virus
-S La Crosse virus
-S Oropouche virus
-S Simbu virus
Все последовательности S-сегментов вместе
-M Akabane virus
-M Bunyamwera virus
-M Cat Que Virus
-M La Crosse virus
-M Oropouche virus
-M Simbu virus
Все последовательности M-сегментов вместе

Вариабельность, скорость эволюции и частота рекомбинации отличается у 3-х сегментов этих вирусов. L-сегмент наиболее консервативный, M, особенно на начальных участков, наиболеее подвержен рекомбинации и реасортации с другими видами, S примерно по середине. Попробуем сравнить по всем сегментам.

makeblastdb -in all.fasta -dbtype nucl
tblastx -query all.fasta -db all.fasta -outfmt 7 -out all_com

С помощью первой из вышеперечисленных команд создается база нуклеотидов на основе 6 последовательностей вирусов. С помощью второй создается таблица сравнения траснляции каждого генома с трансляциями всех геномов.
Полученная tblastx, еще необработанная таблица для L-сегмента
Полученная tblastx, еще необработанная таблица для S-сегмента
Полученная tblastx, еще необработанная таблица для M-сегмента

revise_blast_7.py -i all-M_com -s 50 -e 0.001 -l 30 -o all-m_found
revise_blast_7.py -i all-L_com -s 65 -e 0.001 -l 50 -o all-l_found
revise_blast_7.py -i all-S_com -s 65 -e 0.001 -l 9 -o all-s_found

С помощью вышеописанных команд были удалены неинформативные находки из выдачи tblastx. -s - ограничение по identity, для M-сегмента значения ниже из-за его высокой вариабельности, -l - ограничение по длине выравнивания, его значения отличаются по длине выравнивания, аналогично query cover. -e - ограничение по E-value, 0,001 - стандартное общепринятое значение.
Обработанная таблица для L-сегмента
Обработанная таблица для S-сегмента
Обработанная таблица для M-сегмента
Excel таблица для всех сегментов

Попробуем проанализировать филогению по табице L-сегмента. Выравнивания с максимальной длиной - 2 Akabane/Simbu и Cat/Oropouche, дальше по убыванию также идут выравнивания Akabane/Simbu (еще 2) и Cat/Oropouche (еще 2).
Если посчитать средние значения для выравниваний каждой группы, то максимальные (после обработки уже остались только самые большие) они у Akabane/Bunyamwera (но выравнивание в данном случае только одно и с небольшой длиной), а также Akabane/Simbu, таких выравнивания 4 и с наибольшей длиной, а identity отличаются не сильно. Однако identity и длина выравнивания для остальных выравниваний Bunyamwera хуже, чем с Akabane. Для Cat больше всего выравниваний с Oropouche и одно с Simbu, с неплохим identity и относительно нормальной длиной. Среднее выше для Cat/Simbu, но лишь из-за того, что оно одно, если посмотреть отдельно, то для Cat/Oropouche несколько выравниваний с большой длиной и более высокими значениями identity.
На основе этого пока можно построить некоторые предположения об эволюционных отношениях вирусов. Во-первых, Akabane и Simbu скорей всего самые близкие вирусы, как и Cat и Oropouche. С менее убедительными доказательствами можно предположить близость Bunyamwera к группе Akabene/Simbu. Score, в принципе, соответствует большой длине и идентичность, отдельно по нему сравнивать не имеет смысла.
Теперь перейдем к S-сегменту. Как и для L-сегмента выравнивания с наибольшей длиной соответствуют видам Akabane/Simbu и Cat/Oropouche, также в верхушке рейтинга по длине находятся Oropouche/Simbu и Akabane/Oropouche. И именно этих четырех типов выравниваний больше всего в сумме в обработанной таблице. Единственные выравнивания Bunyamwera и La - это между собой.
Поэтому на данном этапе можно предположить такое дерево. (Рис.10)

Рис.10. Предполагаемое дерево 6 вирусов рода Orthobunyavirus.

Дальше проанализируем M-сегмент. Однако, как говорилось выше, M-сегмент самый вариаобельный и горизонтальный перенос его частей между видами очень распространен. Однако, результаты не противоречат таковым, полученным при анализе S- и L-сегментов. Самые длинные выравнивания - Cat/Oropouche, Cat/Simbu, Akabane/Simbu и Oropouche/Simbu. А для Bunyamwera и La самые первые выравнивания по длине и по количеству - это между собой. Изображенное на Рис.10 дерево согласуется с рассуждениями по всем 3-м сегментам. Однако, эти рассуждения не точны, поэтому построим для всех сегментов деревья в программе Mega 7 методом Neighbor-Joining.
Сначала были удалены участки с конца и начала, не кодирующие белок, дальше в Mega 7 было построено выравнивание ClustalW c учетом кодонов (т.е. последовательность транслируется с самого начала, так как мы уже выделили кодирующую последовательность).
Выравнивание Mega для L-сегмента
Выравнивание Mega для L-сегмента
Выравнивание Mega для L-сегмента
На основе этих выравнивниваний строятся деревья (Рис.11,Рис.12, Рис.13).

Рис.11. Дерево, построенное Neighbor-Joining method по L-сегменту

Рис.12. Дерево, построенное Neighbor-Joining method по M-сегменту

Рис.13. Дерево, построенное Neighbor-Joining method по S-сегменту

По всем сегментам деревья одинаковые и соответствуют предполагаемому из таблиц.
Чтобы окончательно удостоверится в верности примененных мною для анализа таблиц, которые позволили получить верное дерево, сравним его с деревьями из литературных источников. (Рис.13)

Рис.13. Дерево Orthobunyavirus из литературы с изучаемыми видами, выделенными красным [1].

Как видно, и это дерево аналогично всем полученным ранее.
Таким образом, 3-мя методами было получено одинаковое дерево, это достаточно повышает его шансы быть верным.


©Карань Анна, 2015